JSAI2024 3日目: Weights & Biasesを使ったモデル評価の最前線
TODO: 写真
グローバル企業での利用
MLOps/LLMOpsを中心に、あらゆるユースケースをサポート
エンプラ: 有料
大学研究機関: 永遠に無料!拍手👏!
ユーザー数
日本 25,000人
韓国 35,000人
韓国の方が多い!
GPTを開発する中で社会的な実験管理
OpenAIが欲しいと言ってきたものをひたすら作っていたらすごい製品ができた いい話だ daiiz.icon
OpenAIから送られてくる膨大なデータをなんとか捌く日々だった
世界・日本でのLLMの構築を支援
Nejumi LLM Leaderboard Neo
「このモデルは自分の目的に合わせたパフォーマンスが出るのか?」
結果のニュアンスを理解するための情報を可視化して提供
モデルによって強みが分かれてくる
「喋りがうまいけどあまり賢くない、逆も然り」とか
GPT-3.5レベルの第2先頭集団のオープンモデルがいま増えてきている コマーシャルモデル
モデルの性能はそれほど大きくは変わっていない
推論効率が大幅に向上してきた
オープンモデル
70Bパラメタ以上のモデルで大きな精度向上が起こっている
選択式問題
記述式問題
マルチターンの質問を含む
Nejumi Leaderboard
選べる自社にあった環境
SaaSと思われがちだがセルフホスティングできる
プライベートな評価環境を実現できる
リーダーボードのコピー
GUIで簡単に複製できる
カスタマイズ性
自動評価プロセスの構築
ラベルを付けた途端に評価が始まる簡単さ
LLM開発を支えるWandBの機能
LLMアプリ開発フローをすべてカバー
Lossの監視と管理
勾配爆発をいち早く検知して直近のcheckpointから再開 わかる〜〜daiiz.icon
アーティファクトのリネージ管理
種モデルのバージョン情報、学習データセットなど
どれが最新の学習結果だっけ?ファイル名地獄からの脱却
例: RAGでおかしな事が起きたとき、どのデータがコンテキストに渡されたかなど調査できる
WandBは評価のためだけのツールではない!
LLM評価の中で今起こっている変化
モデルを使うことによる責任
活用用途によっては命令への高い追従性能が求められる
倫理評価
国のカルチャーを重んじて考えて行く必要がある
自動評価が難しい
専門家との議論でも無理でしょうと言われるほど
LLMが出力した例示が本当に正しいのか?
モデルが何を知っているのか
「知りません」と答えたとき
本当に知らないのか
知っているのに知らないと言ったのか
評価できないのでは
推論結果が不安定
選択式問題で「1~4」「A~D」「記号で」と尋ねる場合で違いはあるか
意外とテキトーを言っている可能性がある
「適切でないものを選べ」
同じことをいろんな表現で問いかけてみて本当に理解しているかを確認したい
新たに評価すべきことが増え続けている
Nejumi Leaderboardのアップデート
LLM Leaderboard 3の新情報
汎用的言語能力の整理
TODO: 表
実装支援: vLLMsを用いてインタフェースを標準化
モデルごとにばらばらな部分を統一する
TODO: 図